剛剛我注意到DeepSeek研究員Daya Guo回覆了網友有關DeepSeek R1的一些問題,以及接下來的公司的計畫,只能說DeepSeek的R1僅僅只是開始,內部研究還在快速推進,DeepSeek 的研究員過年都沒歇,一直在爆肝推進研究,接下來DeepSeek還有大招
事情是這樣的,2月1號,大年初四Daya Guo發了一條推文,透露了春節期間讓他最興奮的事情,親眼見證了 R1-Zero 模型性能曲線的 “持續增長”,並且直言感受到了 強化學習(RL)的強大力量!這一下子就點燃了網友們的好奇心,大家紛紛跑去圍觀提問(太拼了,deepseek研究員過年都在爆肝訓練模型)
以下我來幫大家還原一下Daya Guo與網友對話:
網友A @PseudoProphet: “大佬,想問下這個性能持續提升能持續多久呢?現在是早期階段嗎?感覺DeepSeek的RL模型是不是像語言模型裡的GPT-2一樣剛起步?還是說已經到GPT-3.5那種比較成熟的階段,快要遇到瓶頸了?”